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摘要 基于 游戏 的 心理 测评 是 指 通过 游戏 或 游戏 化 的 活动 ， 对 一 个 人 的 能 力 、 人 
格 等 心理 特性 和 行为 进行 量化 测评 。 早 期 主要 以 评估 教育 、 训 练 效果 为 目的 而 
后 发 展 成 对 心理 特性 的 测评 ， 基 于 游戏 的 测评 作为 一 项 新 技术 在 测评 形式 、 测 
评 过 程 和 测评 结果 上 均 具 有 优势 。 目 前 基于 游戏 的 测评 形成 了 以 证 据 中 心 设计 
为 基础 的 范式 ， 用 于 指导 建立 测评 工具 并 开展 实证 研究 ， 在 测评 个 体 认 知 能 
和 非 认 知 能 力 方面 均 有 实践 。 然 而 当前 该 技术 仍 处 于 起 步 阶 段 ， 未 来 研究 可 以 
在 任务 设计 、 结 果 分 析 及 实践 应 用 方面 进一步 拓展 深入 。 
关键 词 基于 游戏 的 测评 ， 证 据 中 心 设计 ， 认 知 能 力 ， 非 认 知 能 


1 引言 

根据 中 国 互联 网 络 信息 中 心 发 布 的 《中 国 互 联网 络 发 展 状 况 统 计 报告 
(2019)》 显 示 ， 截 止 2019 年 6 月 ， 中 国 网 络 游戏 网 民 规模 达到 4.94 亿 ， 游 戏 用 
户主 要 集中 在 10 至 39 岁 ， 游 戏 已 经 成 为 人 类 社会 行为 的 重要 组 成 部 分 。 以 往 
研究 者 将 研究 重点 放 在 游戏 对 个 体 心理 及 行为 的 影响 上 ， 然 而 随 着 大 数据 时 代 
的 到 来 ， 由 数据 带 来 的 革命 在 各 个 领域 悄然 兴起 ， 也 为 心理 学 研究 的 开展 提供 
了 新 思路 。 相 比 于 传统 的 行为 测量 方式 ， 在 大 数据 时 代 人 们 的 行为 一 定 程度 上 
可 以 通过 数据 来 衡量 (Schoedel et al., 2018)， 因 此 近年 来 ， 如 何 使 用 游戏 得 到 丰 
富 的 数据 并 预测 玩家 的 知识 、 技 能 和 特质 受到 越 来 越 多 关注 。 

商业 领域 已 初步 尝试 将 游戏 元 素 与 心理 测验 结合 起 来 应 用 于 企业 招聘 ( 杨 振 
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芳 , 孙 贻 文 , 2015)， 并 开发 了 一 系列 游戏 系统 。Arcitc Shore 公司 作为 游戏 化 招聘 
的 先行 者 ， 率 先 使 用 行为 任务 来 判断 应 聘 者 的 人 格 特质 ; 普 华 永 道 与 其 联合 建 
WT Career Unlocked 的 游戏 化 招聘 系统 并 已 投入 使 用 ， 其 中 涉及 充气 球 存 钱 、 
情绪 判断 等 多 项 游戏 任务 ; 德勤 也 打造 了 自己 的 测评 手 游 Firely Freedom， 通 过 
多 个 游戏 关卡 对 应 聘 者 的 勤奋 、 完 美 主义 倾向 、 风 险 管理 与 规避 能 力 等 特质 进 
行 评价 。 


基于 游戏 的 心理 测评 拓展 了 心理 测量 的 手段 ， 与 机 器 学 习 方 法 的 进一步 结合 使 
其 在 大 数据 时 代 拥 有 巨大 的 应 用 潜力 ， 但 是 作为 一 个 新 兴 交 叉 研 究 领 域 ， 基 于 
游戏 的 测评 处 于 “实践 先行 ， 理 论 清 后 ”的 阶段 。 目 前 基于 游戏 的 测评 技术 未 
得 到 国内 学 者 们 的 广泛 关注 ， 因 此 本 
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文 主要 在 国外 已 有 研究 的 基础 上 ， 结合 少量 的 国内 研究 ， 对 基于 游戏 的 测评 这 
一 项 新 技术 进行 介绍 ， 综 述 其 概念 、 评 估 范 式 和 实践 应 用 ， 并 提出 未 来 研究 方 
[3 , 希望 为 后 续 研 究 提供 参考 ，。 
2 概念 评述 
2.1 概念 发 展 与 界定 

游戏 本 身 的 含义 ， 是 指 人 们 参与 交互 的 一 种 娱乐 方式 ， 娱 乐 是 其 具有 的 本 
质 特征 (吴宇 , 2015)。21 世纪 以 来 ， 游 戏 的 巨大 潜力 受到 学 者 们 的 关注 ， 它 的 使 
用 目的 不 再 局 限于 娱乐 ， 严 肃 游戏 (Serious Game) 的 概念 在 国内 外 兴起 。 严 肃 游 
戏 是 指 通过 游戏 的 娱乐 形式 达到 教育 、 训 练 和 治疗 等 严肃 的 目的 (Gamberini et 
al., 2009)， 基 于 游戏 的 学 习作 为 严肃 游戏 的 一 个 分 支 目 的 在 于 让 人 们 从 游戏 中 


习 得 知识 和 行为 (Gee, 2008)。 早 期 基于 游戏 的 测评 大 多 以 评估 特定 的 学 习 结 果 
和 技能 为 出 发 点 ， 在 游戏 环境 中 开发 测评 模型 (Mislevy et al., 2012)， 随 着 基于 
游戏 的 测评 深入 发 展 ， 研 究 者 开始 将 游戏 与 能 力 特征 联系 起 来 ， 让 游戏 提供 个 
体 如 何 思 考 和 行动 的 线索 。 

Heinzen 等 人 (2015) 将 基于 游戏 的 测评 (Game-based assessment, GBA) 定 义 为 
通过 游戏 或 游戏 化 的 活动 ， 对 某 一 对 象 进行 评 佑 。 从 心理 学 视角 来 说 ， 这 就 是 
指 采 用 游戏 的 方式 ， 对 一 个 人 的 能 力 、 人 格 等 心理 特性 和 行为 进行 量化 测评 ( 孙 


sz, E, 符 植 煜 , 2018)。 根 据 测 评 的 形式 可 以 分 为 外 部 测评 (External assessment) 


和 内 部 测评 (nternal assessment) 两 类 ， 一 方面 测评 可 以 基于 游戏 之 外 的 证 据 ， 例 
A, 个体 最 终 的 解决 方案 ， 在 口头 陈述 或 自我 报告 中 阐述 的 理由 等 (Caballero- 
Hernández et al., 2017) ; 另 一 方面 测评 可 以 作为 游戏 的 一 部 分 伐 入 游戏 中 ， 也 称 
之 为 隐形 评估 (Stealth assessment)， 即 在 游戏 中 府 入 有 效 的 测验 衡量 个 体 在 游戏 
环境 中 的 表现 (Shute, 2011)。 


基于 游戏 的 测评 与 游戏 化 测评 (Gamification in assessment) 的 概念 十 分 相似 ， 


都 是 一 种 将 游戏 机 制 应 用 于 非 游戏 环境 的 方式 (Attali & Arieli-Attali, 2015), 1H 


两 者 最 重要 的 区 别 在 于 引入 游戏 机 制 的 目的 。 游 戏 化 测评 友 挥 作用 的 前 提 是 通 
过 游戏 产生 积极 的 内 部 激励 作用 ， 使 个 体 与 特定 环境 发 生长 期 互动 ， 提 高 个 体 
参与 度 和 接受 度 (Nicholson, 2015)， 且 对 个 体 的 测评 表现 产生 积极 作用 ， 因 此 游 
戏 化 测评 多 用 于 教育 领域 ， 目 的 在 于 创造 一 个 有 利 的 环境 。 而 基于 游戏 的 测评 
目的 在 于 根据 受 测 者 在 游戏 中 的 行为 表现 数据 ， 对 个 体 的 一 个 或 多 个 特质 进行 
测量 与 评价 ， 重 点 在 于 实现 评估 的 目的 。 
2.2 优 缺 点 评述 

近年 来 ， 基 于 游戏 的 测评 之 所 以 能 成 为 一 种 比较 受 欢 迎 的 评估 方式 ， 是 因 


为 相 比 于 传统 的 心理 测评 ， 其 在 测评 形式 、 测 评 过程 和 测评 结果 上 都 具有 一 定 
优势 。 

第 一 ， 从 测评 形式 来 说 ， 创 设 了 一 个 真实 度 比较 高 的 环境 ， 可 以 通过 复杂 
的 任务 测量 个 体 对 知识 和 技能 的 应 用 情况 (Shute et al., 2016)， 不 同 于 传统 能 
测试 采用 再 认 、 回 忆 信 息 或 自我 报告 等 方法 ， 基 于 游戏 的 测评 可 以 通过 设置 场 
景 给 学 生 展 现 其 理解 和 应 用 知识 的 机 会 。 此 外 ， 基 于 游戏 的 测评 还 可 以 设置 多 
个 关卡 ， 考 察 个 体 在 不 同类 别 或 不 同 难度 的 情境 下 的 表现 ， 形 式 更 加 灵活 。 

第 二 ， 从 测评 过 程 来 说 ， 基 于 游戏 的 测评 可 以 降低 测评 过 程 中 的 焦虑 ， 提 
高 参与 度 ， 得 到 受 测 者 更 为 真实 的 情况 。 相 比 于 传统 心理 测评 存在 测验 焦虑 、 
社会 赞许 性 等 问题 ， 已 有 多 项 研究 表明 ， 受 测 者 认为 基于 游戏 的 测评 方式 更 有 
吸引 力 ， 趣 味 性 更 强 (DeRosier & Thomas, 2019; Turan & Meral, 2018)。 此 外 ， 有 
研究 者 将 所 要 考察 的 题目 嵌入 游戏 对 学 生 进行 测试 ， 发 现在 基于 游戏 的 测评 中 ， 
学 生 的 考试 焦虑 有 所 降低 上 且 考 试 成 绩 明显 更 好 (Mavridis & Tsiatsos, 2017)。 而 且 
基于 游戏 的 测评 具有 隐蔽 的 特点 ， 受 测 者 无 法 猜测 测验 意图 ， 可 以 有 效 减少 测 


验 作假 。 

第 三 ， 从 测评 结果 来 说 ， 基 于 游戏 的 测评 是 一 种 动态 连续 的 过 程 ， 可 以 通 
过 计算 机 过 程 数据 追踪 技术 得 到 受 测 者 在 游戏 过 程 中 的 表现 情况 ， 而 传统 心理 
测验 只 能 得 到 最 终 的 结果 分 数 。 通 过 与 机 器 学 习 例 如 贝 叶 斯 网 络 方法 相 结合 5 
以 进一步 建立 动态 变化 的 模型 ， 并 根据 受 测 者 表现 情况 更 新 测试 结果 ， 得 到 更 
加 准确 的 数据 (Shute et al., 2016)。 

但 是 ， 基 于 游戏 的 测评 也 不 可 避免 存在 一 些 缺点 。 对 研究 者 和 使 用 者 来 说 ， 
在 测评 游戏 的 开发 ， 测 评 数据 的 分 析 和 测评 结果 的 效 度 三 方面 均 有 不 少 挑战 。 

从 测评 游戏 的 开发 来 说 ， 通 常 需要 将 游戏 机 制 、 游 戏 内 容 和 内 容 评估 结合 
在 一 起 ， 由 研究 人 员 、 游 戏 设 计 师 和 教育 工作 者 等 多 方 参与 ， 共 同 制作 一 款 专 
门 的 游戏 。 这 种 方式 投入 的 时 间 、 金 钱 和 人 力 成 本 比较 高 。 早 期 研究 多 基于 现 
有 的 一 些 商业 化 游戏 开展 ， 比 如 植物 大 战 僵尸 等 ， 然 而 这 些 游戏 本 身 并 不 是 为 
评估 某 种 心理 特质 而 开发 的 ， 只 能 针对 比较 有 限 的 主题 进行 评估 ， 内 容 不 准确 
和 不 完整 。 也 有 研究 者 尝试 设计 通用 性 的 游戏 框架 ， 将 内 容 与 游戏 机 制 分 离 ， 
开发 特定 主题 的 游戏 ， 降 低 游戏 开发 的 门槛 ， 但 仍 存在 一 些 其 他 问题 ， 比 如 心 
流体 验 中 断 、 练 习 效 应 等 (Baron, 2017)。 

从 测评 数据 的 分 析 来 说 ， 通 过 基于 游戏 的 测评 将 收集 到 大 量 过 程 数据 ， 比 
如 鼠标 点 击 次数 、 反 应 时 间 等 ， 一 方面 这 些 数据 的 记录 、 处 理 与 分 析 远 比 传统 
心理 测验 得 到 的 数据 复杂 ， 这 对 研究 者 的 数据 分 析 能 力 提出 了 较 高 要 求 ; 另 一 
方面 ， 基 于 游戏 的 测评 关键 在 于 建立 过 程 数据 与 所 测 特 质 结 构 的 关系 ， 如 何在 
众多 数据 中 确立 并 验证 数据 指标 与 所 测 特 质 的 因果 关系 对 研究 者 来 说 具有 较 大 


困难 (Kim & Ifenthaler 2019)。 


从 测评 结果 的 效 度 来 说 ， 基 于 游戏 的 测评 也 存在 与 传统 心理 测验 一 样 的 问 
题 。 有 研究 者 指出 ， 基 于 游戏 的 测评 的 结果 并 不 能 完全 等 于 受 测 者 所 测 特 质 的 
实际 水 平 ， 即 使 游戏 中 的 任务 反映 了 所 测 特质 的 关键 要 素 ， 受 测 者 如 何在 游戏 
中 扮演 自己 的 角色 并 做 出 一 系列 行为 ， 只 是 他 们 在 实际 生活 中 的 近似 表现 
(StANescu et al., 2020)。 而 且 游 戏 过 程 中 界面 的 颜色 、 角 色 的 造型 、 游 戏 的 音 交 
等 环境 要 素 ， 以 及 受 测 者 先前 的 游戏 经 验 等 个 体 要 素 都 有 可 能 影响 测评 结果 。 

总 而 言 之 ， 基 于 游戏 的 测评 方法 和 存在 部 分 不 足 之 处 ， 但 毋庸 置疑 的 是 ， 基 
于 游戏 的 测评 更 具有 独特 的 优势 ， 使 用 游戏 作为 评估 工具 是 一 种 日 渐 重要 的 方 
法 并 具有 越 来 越 高 的 价值 。 


3 测评 范式 
3.1 证 据 中 心 设计 


建立 科学 有 效 的 测评 工具 是 测量 个 体 心 理 特性 的 前 提 和 基础 ， 因 此 在 有 关 
基于 游戏 的 测评 的 研究 中 ， 测 评 工具 的 建立 和 检验 是 学 者 天 注 的 焦点 之 一 ， 证 
据 中 心 设计 为 其 提供 了 理论 基础 ， 并 进一步 形成 了 建立 测评 工具 的 范式 。 


Mislevy 等 人 最 先 在 2003 年 针对 教育 评估 领域 提出 概念 评估 框架 (Conceptual 


assessment framework) 一 一 一 个 用 于 建立 评估 的 通用 模型 ， 由 学 生 模 型 、 证 据 模 
型 、 任 务 模型 、 组 合 模型 以 及 呈现 模型 五 个 部 分 组 成 ( Mislevy, Almond, & 

Lukas, 2003; Mislevy, Steinberg, & Almond, 2003)， 并 且 包 含 框架 实施 的 四 个 过 程 ， 
分 别 为 呈现 过 程 、 响 应 过 程 、 计 分 过 程 和 任务 选择 过 程 。 概 念 评估 框架 和 四 个 
过 程 被 统称 为 证 据 中 心 设计 (Evidence-centered design ，ECD)， 这 是 一 个 更 广泛 
的 测量 模型 ， 以 支持 现代 化 教育 评估 。 证 据 中 心 设计 同样 适用 于 开发 游戏 测评 


工具 ,Shute 在 2011 年 将 其 概括 为 三 个 最 核心 的 组 成 成 分 ， 分 别 为 能 力 模型 、 


任务 模型 和 证 据 模 型 。 
3.2 测评 工具 建立 

第 一 ， 定 义 测量 的 特质 结构 ， 即 建立 能 力 模型 。 能 力 模 型 的 建构 需要 研究 
者 根据 研究 问题 确定 目标 特质 ， 也 就 是 期 望 测量 的 知识 、 技 能 或 者 能 力 、 态 度 ， 
并 根据 已 有 理论 框架 定义 目标 特质 的 属性 及 特征 。 此 模型 可 以 是 简单 模型 ， 通 
过 任务 的 完成 情况 考察 某 一 特质 ， 也 可 以 是 复杂 模型 ， 在 一 个 游戏 中 综合 考察 
个 体 的 几 种 特质 ( 孙 海 洋 , 2011)。 

第 二 ， 确 定 反 映 目 标 特质 的 指标 及 计 分 规则 ， 即 建立 证 据 模 型 。 证 据 模型 
是 能 力 模型 和 任务 模型 的 桥梁 ， 将 可 观察 值 汇总 并 建立 预测 模型 从 而 推断 目标 
特质 。 这 也 是 证 据 中 心 设计 框架 最 核心 的 组 成 成 分 ， 可 分 为 统计 规则 和 统计 模 
型 两 个 部 分 (Shute, 2011)。 统 计 规 则 的 构建 在 于 选择 游戏 中 与 能 力 模型 相 联系 的 
指标 ， 并 设 定 受 测 者 游戏 表现 的 得 分 或 者 得 分 比率 等 评分 规则 ， 以 此 得 到 可 观 


L 


察 且 可 量化 的 结果 。 由 于 游戏 的 多 样 性 ， 不 同 的 游戏 有 不 同 的 数据 指标 ， 即 使 
是 相同 的 游戏 根据 不 同 的 能 力 模型 也 可 能 存在 不 同 的 数据 指标 ( 温 迎 , 付 玉 , EN 
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究 者 的 经 验 与 专业 知识 而 无 统一 标准 ， 其 中 任务 完成 时 间 、 关 卡 完成 数量 、 正 
确 率 等 是 较为 常见 的 数据 指标 ， 此 外 ，Nebel 和 Ninaus(2019) 提 出 ， 借 助 生理 数 
据 可 以 对 玩家 的 情绪 和 认 知 状态 有 更 深入 的 了 解 ， 因 此 未 来 研究 中 可 以 考虑 同 


时 采集 相关 生理 数据 作为 测评 指标 。 
统计 模型 的 构建 在 于 定义 可 观 码 的 指标 和 能 力 模型 之 间 的 关系 ( 冯 众 典 ， 


2012)， 这 种 关系 可 能 是 逻辑 性 的 ， 也 可 能 是 概率 性 的 。 一 方面 ， 研 究 者 可 以 基 
于 简单 的 计算 规则 将 所 选 指标 的 结果 得 分 汇总 ， 直 接 代表 目标 特质 的 水 平 ; 另 
一 方面 ， 研 究 者 可 以 借助 贝 叶 斯 网 络 、 随 机 森林 等 算法 ， 通 过 所 选 指标 的 结果 
构建 数学 模型 预测 目标 特质 的 水 平 。 统 计 模型 的 选择 与 目标 特质 、 游 戏 任务 、 
指标 数量 等 因素 均 有 关联 。 


一 般 而 言 ， 逻 辑 性 的 模型 较为 简单 ，Vendlinksi 和 Stevens(2002) Fixit f — 
款 游戏 来 评估 高 一 学 生 的 化 学 知识 水 平 ， 要 求 受 测 者 在 23 个 不 同 的 情境 中 识别 
出 指定 化 学 品 ， 受 测 者 可 以 在 游戏 中 通过 实验 、 查 阅 书籍 等 多 种 方式 辅助 判断 ， 
每 种 情境 计 1 分 ， 得 分 越 高 说 明 化 学 知识 水 平 越 高 。DeRosier 等 人 (2012) 对 儿童 
在 虚拟 社交 情境 中 做 出 的 行为 选择 赋 分 并 计算 总 分 ， 评 估 儿 童 的 社会 情绪 能 力 。 

而 概率 性 的 模型 更 加 复杂 , Shute 等 人 在 借助 植物 大 战 僵尸 (Use Your Brain) 
游戏 预测 个 体 问题 解决 能 力 (Problem Solving Skills) 的 研究 中 ， 按 照 某 一 种 行为 
占 此 类 行为 的 比例 区 间 划 分 等 级 作为 一 项 数据 指标 ， 并 建立 等 级 与 所 测 特 质 水 
平 的 概率 关系 ， 比 如 受 测 者 在 某 一 项 数据 指标 上 的 表现 是 好 时 ， 其 在 目标 特质 
上 表现 水 平 是 好 的 概率 为 0.5。 结 合 众 多 数据 指标 的 表现 可 依据 概率 公式 预测 个 
体 问 题解 决 能 力 水 平 。 目 前 尚未 有 研究 结论 表明 统计 模型 的 类 型 对 测评 结果 存 
在 显著 影响 ， 研 究 者 可 以 根据 研究 目的 选择 合适 的 统计 模型 。 

第 三 ， 设 计 任务 或 情境 从 中 获得 指标 ， 即 建立 任务 模型 。 在 基于 游戏 的 测 


评 中 ， 游 戏 即 是 评估 的 任务 ， 主 要 目的 在 于 引出 受 测 者 能 力 的 证 据 ， 需 要 定义 
呈现 方式 、 游 戏 任务 特征 、 游 戏 任务 的 难度 和 数量 、 完 成 游戏 任务 的 可 行 策略 


和 测试 行为 的 目标 水 平等 (Rupp et al., 2010)。 有 研究 者 指出 不 同类 型 的 游戏 涉及 
不 同 的 技能 ， 可 以 将 电子 游戏 分 成 策略 类 、 冒 险 类 、 角 色 扮 演 类 、 动 作 类 、 模 
拟 类 和 其 他 (Dickey 2006)。 其 中 策略 类 游戏 涉及 认 知 能 力 、 决 策 能 力 和 战略 思 
维 ， 模 拟 类 游戏 与 问题 解决 能 力 、 自 我 意识 以 及 观点 采 择 相关 ， 角 色 扮 演 类 游 
戏 则 需要 想象 、 合 作 与 计划 等 特质 的 参与 (DeRosier & Thomas, 2018b)， 选 择 游 


戏 作为 测量 工具 时 首先 需要 考虑 目标 特质 与 游戏 功能 的 匹配 程度 。 人 在 研究 过 程 


中 ， 研 究 者 可 以 基于 现 有 游戏 提炼 有 预测 作用 的 指标 进行 评估 ， 也 可 以 根据 研 
究 目 的 设计 新 游戏 。 
利用 证 据 中 心 设计 建立 目标 特质 的 测评 工具 为 进一步 进行 数据 采集 、 处 理 


与 信 效 度 检 验 提供 了 必要 条 件 ( 见 图 1)。 
3.3 信 效 度 检验 

基于 游戏 的 测评 作为 一 种 较为 新 颖 的 测量 技术 ， 信 效 度 的 检验 更 为 重要 , 
但 是 目前 相关 研究 数量 少 。 在 当前 研究 中 ， 游 戏 测评 工具 的 检验 方法 与 传统 心 
理 测验 的 检验 方法 类 似 ， 具 体 分 为 信 度 检验 和 效 度 检 验 。 

信和 度 ， 即 可 靠 性 (Reliability)， 信 和 度 系 数 高 即 表 示 该 测评 工具 的 结果 更 一 致 、 
稳定 与 可 靠 。 通 常 通过 计算 克隆 巴赫 (Cronbach's alpha) 系 数 和 组 内 相关 系数 
(Intraclass correlation coefficient) 对 测评 工具 的 内 部 一 致 性 信和 度 进行 检验 (Shute & 
Moore, 2017), 

LA Kim 等 人 在 2016 年 设计 的 “物理 游乐 场 (Physics playground)’ 790) , 1233s 
戏 共 使 用 74 个 关卡 来 评估 玩家 对 牛顿 三 定律 的 理解 ， 通 过 控制 屏幕 上 的 工具 ， 
比如 杠杆 、 和 斜面 等 使 小 球 移动 到 目标 位 置 ， 若 玩家 出 现 使 用 斜坡 、 杠 杆 、 钟 摆 
或 跳板 完成 移动 目标 的 行为 ， 则 视 为 其 表现 优秀 。 研 究 者 计算 了 表现 优秀 的 数 
据 的 内 部 相关 性 (r=0.85) 并 选择 了 完成 度 较 高 的 29 个 关卡 进行 a 系数 的 检验 
(o=0.87)。 此 外 ， 研 究 者 还 对 表现 优秀 数据 的 四 个 结构 维度 进行 验证 性 因子 分 析 ， 
得 到 单个 维度 测量 误差 小 ， 内 部 一 致 性 信和 度 高 。 这 些 结果 在 一 定 程度 上 说 明 物 
理 游乐 场 游戏 的 信和 度 理想 。 

效 度 ， 即 有 效 性 (Validity)， 效 度 高 即 表 示 该 测评 工具 能 更 准确 的 测 出 其 所 要 
测量 的 特质 。 通 常 借助 外 部 测量 工具 对 聚合 效 度 和 区 分 效 度 两 者 进行 检验 
(Rupp et al., 2010)。 此 外 ， 效 标 关 联 效 度 也 是 研究 者 会 关注 的 对 象 之 一 ， 它 反映 
了 游戏 预测 个 体 在 某 种 情境 下 行为 表现 的 有 效 性 程度 。 

以 Weiner 在 2019 年 设计 的 VR 游戏 为 例 ， 受 测 者 使 用 一 个 头 戴 控制 器 和 两 
个 手持 控制 器 来 完成 3 款 VR 游戏 以 测量 个 体 的 认 知 能 力 ， 包 括 视觉 速度 与 准 


确 性 、 空 间 想 象 和 视觉 追踪 能 力 。 测 试 结束 后 ， 受 测 者 需要 完成 职业 能 力 倾 向 
测验 (Employee aptitude survey, EAS) 中 测量 这 三 种 能 力 的 分 测验 和 大 五 人 格 测验 ， 
此 外 研究 者 还 获取 了 受 测 者 的 学 业 成 绩 (GPA)。 将 VR 测试 得 分 分 别 与 外 部 测验 
得 分 和 学 业 成 绩 建 立 相关 关系 和 回归 方程 ， 结 果 表 明 这 些 测验 结果 之 间 存 在 两 
两 相关 和 且 VR 测试 得 分 可 以 为 学 业 成 绩 提供 有 意义 的 预测 。 聚 合 效 度 、 区 分 效 


度 及 效 标 关联 效 度 的 结果 在 一 定 程度 上 说 明 VR 游戏 的 效 度 良 好 。 


测评 工具 建立 信 效 度 检验 
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证 据 中 心 设计 


在 测评 范式 的 指导 下 ， 人 研究 者 建立 了 多 种 游戏 测评 工具 对 个 体能 力 与 行为 
开展 评估 实践 。 认 知 能 力 和 非 认 知 能 力作 为 能 力 的 一 体 两 面 ， 对 个 人 发 展 至 天 
重要 ( 李 丽 , 赵 文 龙 , 2017)， 因 此 常常 成 为 心理 测验 测评 的 对 象 。 目 前 ， 基 于 游 
戏 的 测评 被 广泛 应 用 于 个 体 认 知 能 力 的 评估 (De Klerk et al., 2015)， 并 且 在 预测 
非 认 知 能 力 方面 也 有 独特 的 优势 。 

4.1 认 知 能 力 的 测评 

认 知 能 力 是 个 体 在 重 构 和 应 用 知识 时 所 需要 的 能 力 ， 涉 及 知觉 、 记 忆 、 注 
意 等 基本 认 知 能 力 和 推理 判断 、 想 象 、 问 题解 决 等 高 级 认 知 能 力 。 基 于 游戏 的 
测评 方法 为 认 知 能 力 的 评估 提供 了 新 思路 ， 在 认 知 能 力 评价 和 认 知 能 力 诊断 方 
面 均 有 一 定 应 用 。 


fi 85 A (2018) IT HERS Fi MAAS HEEE ET (Reasoning ability $125 
学 成 绩 ， 提 取 第 一 步 用 时 占 比 、 完 成 箱子 的 比例 、 思 考 步 数 占 比 、 重 复 步 数 占 
比 、 与 最 优 路 径 相差 步 数 等 23 个 特征 建立 随机 森林 模型 ， 并 通过 计算 精确 率 、 
查 准 率 和 查 全 率 等 指标 验证 模型 的 预测 效果 。Shute 等 人 (2016) 借 助 植物 大 战 僵 
FP (Use Your Brain) 游 戏 预 测 个 体 问 题解 决 能 力 (Problem solving skills)， 包 括 分 析 
条 件 和 限制 、 制 定 解 决 办 法 、 有 效 利用 资源 和 工具 、 监 控 和 调整 进程 四 个 维度 。 
根据 受 测 者 抵挡 僵尸 的 操作 ， 例 如 “在 有 超过 五 个 僵尸 时 使 用 能 量 豆 ” 被 认为 
是 有 效 利用 资源 和 工具 的 表现 ， 将 目标 行为 /总 行为 转化 为 频率 后 共 提 取 32 个 
特征 建立 贝 叶 斯 网 络 模型 ， 预 测 模型 得 到 的 结果 与 瑞 文 推理 测验 和 模拟 投篮 任 
务 的 得 分 均 存 在 显著 相关 。 个 体 的 论证 推理 能 力 (Argumentative reasoning) 也 是 
一 种 重要 的 认 知 能 力 ， 研 究 者 使 用 海上 学 期 (Seaball 一 Semester at sea) 游戏 要 求 
儿童 回答 出 现 的 食物 是 否 属于 垃圾 食品 等 问题 并 在 多 个 选项 中 选择 理由 ， 最 后 
对 48 个 题目 的 正确 选项 进行 计 分 得 到 游戏 总 分 (Song & Sparks, 2019)， 游 戏 得 
分 越 高 说 明 个 体 的 论证 推理 能 力 越 强 。 学 生 在 游戏 评估 中 的 得 分 与 CBAL 认 知 
学 习 能 力 测验 (Cognitively based assessment of, for, and as learning) 得 分 呈 中 等 程 
度 相 关 ， 说 明了 游戏 的 区 分 效 度 和 聚合 效 度 ; 与 教师 报告 的 学 生成 绩 与 其 议论 
文 写作 能 力 上 的 评级 结果 也 呈 显 著 相 关 ， 说 明了 游戏 的 效 标 关联 效 度 。 

除了 对 一 般 人 群 的 认 知 能 力 进行 评估 外 ， 基 于 游戏 的 测评 也 被 用 于 对 认 知 
障碍 人 群 的 认 知 诊断 。Manera 等 人 (2015) 采 用 “厨房 与 襄 饰 ”的 游戏 任务 评估 
患 有 轻 度 认 知 障碍 和 阿尔 滨海 默 病 的 老人 ， 要 求 受 测 者 点 击 屏幕 制作 菜肴 。 该 
游戏 分 为 区 分 原材料 、 计 划 制 作 工序 、 实 际 操 作 三 个 过 程 ， 涉 及 感知 能 力 、 计 
划 能 力 和 实践 能 力 ， 最 后 将 完成 时 间 与 表现 错误 次 数 作为 判断 指标 ， 受 测 者 游 


戏 表 现 与 整体 认 知 功能 、 注 意 力 与 思维 、 执 行 功 能 和 记忆 能 力 测验 的 结果 均 呈 
显著 相关 ， 验 证 了 游戏 效 度 。Flynn 等 人 (2019) 对 一 个 认 知 障碍 夏令 营 的 孩子 进 
行 施 测 和 监控 ， 由 一 组 游戏 任务 组 成 可 以 重复 测评 的 认 知 检测 工具 ， 分 为 感知 
区 分 任务 (在 屏幕 上 点 击 正 确 的 目标 ) 和 导航 任务 (通过 倾斜 Pad 来 引导 模拟 角色 
绕 过 障碍 物 )， 借 助 自 适应 算法 工具 自动 记录 完成 单 任务 和 多 任务 时 的 个 体 情况 , 
共 收 集 20 项 反应 指标 。 通 过 个 体 随 时 间 推 移 的 数据 结果 ， 可 以 在 改善 认 知 神经 
障碍 的 治疗 过 程 中 进行 更 加 全 面 和 准确 的 评估 。 
4.2 非 认 知 能 力 的 测评 

由 于 反映 社会 特征 及 人 格 特质 的 非 认 知 能 力 较 难 测量 ， 对 其 关注 的 时 间 相 
对 滞后 ， 但 随 着 非 认 知 能 力 在 个 体 发 展 中 的 重要 性 逐渐 展现 ， 近 年 来 ， 基 于 游 
戏 的 测评 在 非 认 知 能 力 测 评 中 的 作用 也 受到 了 关注 。 

研究 者 使 用 “参观 动物 园 (U Z00)” 这 一 游戏 评估 儿童 的 社会 情绪 能 力 ， 游 
戏 过 程 中 儿童 在 类 似 于 学 校 的 故事 世界 中 与 虚拟 角色 互动 来 完成 6 个 虚拟 社交 
场景 中 呈现 的 情境 选择 问题 ， 以 此 评估 个 体 在 交流 、 合 作 、 同 理 心 、 情 绪 调节 、 
冲动 控制 和 社会 活动 6 个 方面 的 能 力 ， 结 果 表 明 6 个 维度 的 内 部 一 致 性 均 呈 正 
相关 。 此 外 研究 者 获得 了 受 测 学 生 由 教师 报告 的 社交 技能 和 行为 量 表 得 分 、 纪 
律 处 分 和 学 业 适 应 情况 ， 游 戏 得 分 更 低 的 儿童 表现 出 更 多 社交 、 行 为 和 学 业 上 
的 问题 (DeRosier et al., 2012; DeRosier & Thomas, 2018a)。 此 外 ， 对 个 体 团 队 合 
作 能 力 (Guenaga et al., 2015) 和 个 人 合作 行为 (Keil et al., 2017) 的 评估 也 可 以 借助 
游戏 实现 。 

人 格 特质 的 测量 也 受到 了 学 者 的 重视 。Nimwegen 等 人 (2011) 与 一 家 游戏 工作 室 和 一 家 
人 力 资源 咨询 公司 合作 开发 了 一 款 游戏 用 于 测评 个 体 的 依从 性 ， 受 测 者 模拟 自己 在 一 个 公 
司 环境 中 对 发 生 的 事情 做 决定 和 表达 意见 ， 故 事 中 受 测 者 选择 的 行动 实际 上 代表 李 克 特 四 


点 量 表 的 分 数 。Poptropica 岛屿 任务 游戏 可 以 预测 个 体 的 坚持 性 特质 (DiCerbo, 2014) , FAR 
者 选择 一 次 通过 率 低 于 百 分 之 十 的 岛屿 关卡 作为 困难 关卡 ， 在 任务 事件 上 花费 的 时 间 以 及 
完成 任务 的 次 数 作为 坚持 性 的 评估 指标 ， 并 将 游戏 中 三 个 岛屿 任务 的 两 项 评估 指标 建立 验 
证 性 因素 分 析 模 型 进行 检验 ， 得 到 各 项 拟 合 指数 良好 。 目 前 心理 学 领域 中 较 成 熟 的 实验 范 
式 


(Dictator game) 则 可 以 测量 个 体 的 公平 性 特质 (Baumert et al., 2014)， 通 过 游戏 中 行为 的 表现 


Bee ED XX (The ultimatum game) 可 以 用 于 评估 个 体 利他 性 特质 ， 独 裁 者 博 奔 游戏 


情况 ， 还 可 以 评估 个 体 主动 性 攻击 和 反应 性 攻击 特质 (McCreery et al., 2019), 
但 在 人 格 特质 领域 ， 也 有 学 者 得 到 了 不 同 的 结论 。Dalveren 等 人 (2015) 借 助 外 科 病 房 导 


航 游戏 测试 受 测 者 的 人 格 特质 ， 在 游戏 中 受 测 者 需要 根据 地 图 达到 10 个 不 同 的 目标 地 点 。 
参照 荣 格 的 人 格 类 型 (Myers-Briggs type indicator, MBTD， 选 择 反 应 时 间 、 行 走 的 距离 、 走 
到 错误 道路 的 次 数 、 撞 墙 的 次 数 以 及 任务 成 功率 等 作为 游戏 行为 指标 ， 但 是 研究 者 分 析 了 
这 些 人 格 类 型 与 玩家 在 游戏 过 程 中 的 个 人 表现 的 相关 关系 ， 发 现 游戏 参数 与 玩家 的 性 格 类 
型 之 间 没有 显著 的 相关 性 ， 这 对 基于 游戏 的 测评 是 否 能 有 效 预 测 人 格 特质 提出 了 挑战 。 


5 未 来 研究 展望 
综 上 所 述 ， 本 文 对 基于 游戏 的 测评 的 概念 、 范 式 和 实践 进展 进行 了 梳理 整 
合 ， 不 仅 对 理解 基于 游戏 的 测评 这 一 新 兴 技 术 具 有 重要 价值 ， 而 且 对 后 续 研究 
的 开展 也 具有 重要 指导 意义 。 但 目前 基于 游戏 的 测评 的 研究 仍 处 于 初始 阶段 , 
未 来 学 者 可 以 从 测评 的 任务 设计 、 测 评 的 数据 分 析 和 测评 的 实践 应 用 三 个 角度 
出 发 ， 进 一 步 丰富 基于 游戏 的 测评 的 相关 研究 。 
5.1 测评 的 任务 设计 
早期 研究 多 利用 一 些 现 有 商业 游戏 如 植物 大 战 僵尸 、 推 箱子 等 Shute et 
al., 2016; I&S, 2018) ， 探 讨 这 些 游戏 上 的 表现 与 某 种 心理 特质 的 关联 。 目 
前 有 越 来 越 多 的 研究 者 党 试 根据 证 据 中 心 设计 框架 ， 将 游戏 机 制 、 游 戏 内 容 和 
内 容 评 估 相 结合 ， 开 发 特定 主题 的 游戏 ( 如 Song et al., 2020 ) 。 这 样 在 测评 相 


应 的 心理 特质 上 更 具有 针对 性 ， 内 容 更 正确 完整 。 一 些 通用 游戏 框架 的 出 现 ， 
如 Minecraft， 也 在 一 定 程度 上 降低 了 游戏 开发 的 门槛 。 

但 目前 大 多 基于 游戏 的 测评 仍 采 用 线性 设计 模式 ， 针 对 不 同 的 测试 者 呈现 
的 游戏 情境 和 内 容 均 一 致 ， 这 会 导致 测评 需要 花费 许多 时 间 且 评估 内 容 较为 单 
一 ， 因 此 有 研究 者 提出 非 线 性 的 游戏 模式 。 一 方面 表现 为 分 支 设 计 ， 不 同 的 行 
为 将 带 来 不 同 的 游戏 情境 。Bacos 等 人 (2018) 在 研究 中 采用 一 款 具 有 分 支 故 事情 
节 的 互动 叙事 游戏 对 个 体 的 反 事 实 思 维 进行 测量 ， 由 此 可 见 ， 分 支 设 计 也 许可 
以 为 更 高 级 的 特质 评估 提供 方向 。 另 一 方面 表现 为 自 适 应 设计 ， 根 据 对 测试 者 
能 力 的 估计 ， 从 游戏 关卡 中 选择 相应 难度 水 平 的 游戏 ， 可 以 大 大 提高 评估 效率 。 
Wilson 等 人 (2006) 开 发 了 一 蒜 数 字 苋 赛 (The Number Race) 的 自 适 应 游戏 软件 用 
于 纠正 儿童 计算 障碍 ， 通 过 评估 儿童 的 计算 能 力 基 线 并 提出 适合 儿童 表现 水 平 
的 问题 ， 实 现 对 儿童 计算 能 力 的 训练 。 尽 管 此 游戏 的 主要 目的 在 于 训练 而 非 评 
估 ， 但 具有 一 定 启 示意 义 。 由 于 目前 基于 游戏 的 测评 领域 中 少 有 研究 者 进行 自 
适应 游戏 设计 的 研究 ， 未 来 研究 者 可 以 参考 基于 游戏 的 训练 及 基于 游戏 的 学 习 
等 领域 的 相关 研究 进一步 探索 。 

此 外 ， 多 玩家 的 大 型 游戏 设计 也 为 同时 测量 多 人 及 多 特质 的 实现 提供 了 方 
lh]. Annetta 等 人 (2010) 开 发 了 一 于 多 玩家 教育 游戏 (Multiplayer educational 
gaming application, MEGA) 以 评估 21 世纪 数字 时 代 学 生 的 读 写 能 力 、 创 造 性 思 
维 、 执 行 力 和 沟通 技巧 水 平 ， 通 过 观察 学 生 与 老师 的 互动 情况 、 与 同伴 的 讨论 
情况 ， 以 及 在 玩 游戏 时 的 参与 程度 和 花费 时 间 这 四 类 因素 进行 评价 。 早 期 研究 
对 游戏 行为 的 评价 及 游戏 情境 的 设计 均 比 较 简 单 ， 计 算 机 技术 的 发 展 将 为 非 线 
性 和 多 人 多 特质 的 游戏 模式 设计 带 来 更 多 可 能 性 。 

5.2 测评 的 数据 分 析 
早期 研究 多 使 用 结果 数据 ， 目 前 对 过 程 数据 的 关注 也 逐渐 增多 ， 倾 向 于 过 


程 数据 和 结果 数据 的 整合 应 用 。De Klerk 等 人 在 2015 FRAT 31 项 研究 成 果 ， 
其 中 有 10 个 研究 使 用 了 游戏 结果 数据 ，6 个 研究 使 用 了 过 程 数据 ， 其 余 的 两 者 
EUH , 这 说明 研 究 者 对 于 过 程 数据 的 利用 率 仍 有 限 。 随 着 计算 机 技术 的 发 展 ， 
机 器 学 习 在 数据 处 理 方面 的 巨大 优势 逐渐 显现 ， 尤 其 是 通过 游戏 的 方式 会 得 到 


数量 庞大 的 数据 ， 传 统统 计 方 法 无 法 最 大 限度 提取 数据 中 的 信息 (Csap6 et al., 
2012)， 而 机 器 学 习 算 法 则 可 以 帮助 研究 者 在 结果 评估 阶段 建立 更 复杂 的 模型 。 

已 有 不 少 研究 者 引入 贝 叶 斯 网 络 、 决 策 树 、 随 机 森林 等 算法 建立 预测 模型 
fi SESS A 2018) 538036453 B 25% 和 后 25% 的 受 测 者 样本 进行 特质 提取 与 模 
型 建立 ， 从 推 箱子 游戏 中 提取 23 个 特征 指标 作为 分 类 数据 集 的 特征 值 ， 随 机 划 
分 训练 集 和 测试 集 后 对 数据 集 进行 训练 和 分 类 ， 建 立 推 箱子 的 游戏 表现 与 推理 
能 力 和 数学 成 绩 的 关系 。 未 来 研究 也 可 以 考虑 结合 卷 积 神经 网 络 处 理 图 像 数 据 ， 
让 游戏 数据 提供 更 多 的 信息 ， 以 及 考虑 采用 机 器 学 习 的 非 监督 学 习 类 型 ， 探 究 
数据 内 在 分 组 类 型 或 数据 各 部 分 的 规则 ， 丰 富 测评 结果 的 分 析 方 法 。 需 要 注意 
的 是 ， 尽 管 这 一 处 理 方式 具有 良好 的 统计 学 意义 ， 但 是 机 器 学 习 是 数据 驱动 的 
建 模 过 程 ， 目 的 是 最 大 化 预测 准确 性 ， 有 时 无 法 兼顾 模型 中 特征 本 身 的 意义 和 
结构 (Mayer et al., 2014)， 仅 从 数据 驱动 得 到 的 结论 很 有 可 能 是 没有 实际 意义 的 
(RIF, 胡 艺 龄 , IHR, 2015)， 如 何在 理论 基础 上 与 机 器 学 习 方 法 相 结合 需要 更 
为 深入 的 分 析 和 研究 。 
5.3 测评 的 实践 应 用 

在 测评 内 容 上 ， 早 期 基于 游戏 的 测评 主要 应 用 于 评估 个 体 对 知识 和 技能 的 
掌握 程度 。 不 同 于 采用 试卷 测试 的 方法 ， 研 究 者 将 考察 点 融入 游戏 ， 使 受 测 者 
在 游戏 过 程 中 展现 其 对 知识 和 技能 的 理解 和 应 用 能 力 。 尤 其 是 评估 数学 、 物 理 、 
医疗 急救 和 建筑 设计 等 此 类 更 需要 理解 应 用 的 知识 技能 时 (De Klerk et al., 
2015)， 基 于 游戏 的 测评 是 一 种 有 效 的 工具 选择 。 随 着 基于 游戏 的 测评 的 发 展 ， 
其 在 认 知 能 力 与 非 认 知 能 力 的 评估 研究 中 的 作用 也 受到 了 广泛 关注 。 基 于 游戏 
的 测评 可 以 在 一 定 程度 上 可 免 传统 心理 测评 中 存在 的 易 受 社会 赞许 性 影响 、 无 
过 程 数 据 等 缺点 而 受到 研究 者 青睐 ， 越 来 越 多 研究 者 开始 借助 游戏 对 个 体 的 心 


理 特 质 进 行 评估 与 研究 ， 不 少 企 业 也 自行 设计 游戏 用 于 人 才 招 聘 ， 以 判断 应 聘 
者 的 能 力 及 个 性 。 但 如 何 选 择 游戏 任务 中 的 数据 指标 代表 个 体 的 人 格 特征 困难 
较 高 ， 因 此 目前 对 非 认 知 能 力 的 实践 较为 简单 且 数 量 较 少 ， 示 来 研究 者 在 这 一 
方向 上 进行 深入 探索 。 

在 应 用 场景 上 ， 近 年 来 基于 游戏 的 测评 在 临床 评估 与 治疗 领域 的 研究 尝试 
为 这 一 技术 带 来 了 新 价值 。Hautala 等 人 (2020) 开 发 了 一 组 在 线 游戏 任务 用 于 评 
估 与 筛 查 低 年 级 学 生 的 阅读 障碍 ，Song 等 人 (2020) 设 计 了 一 款 叫 “CoCon” 的 手 
机 游戏 用 于 评估 儿童 青少年 群体 的 认 知 功能 并 计划 将 “CoCon” 的 使 用 进一步 扩 
展 到 筛 查 具 有 严重 认 知 控制 问题 的 临床 人 群 。 基 于 游戏 的 测评 因 其 可 以 建立 自 
动 评分 系统 、 详 细 记 录 干 预期 间 个 体 水 平 变化 过 程 以 及 通过 自 适 应 算法 自行 调 
整 任务 难度 而 在 后 续 治 疗 干预 中 具有 较 高 应 用 价值 。2020 年 6 月 ， 美 国 食品 药 
品 监督 管理 局 批准 了 一 款 名 为 EndaevorRx 的 游戏 作为 患 有 儿童 多 动 症 孩 子 的 处 
方药 ， 也 反映 出 这 一 领域 在 实践 应 用 中 的 巨大 潜力 ， 如 何 将 理论 与 实践 相 结合 
使 基于 游戏 的 测评 发 挥 更 大 功能 需要 研究 者 不 懈 努 力 。 

在 具体 应 用 中 ， 研 究 者 也 越 来 越 关注 一 些 细节 问题 ， 比 如 测评 指标 选择 等 。 
DiCerbo(2014) 在 通过 Poptropica 岛屿 任务 游戏 预测 个 体 坚持 性 的 研究 中 ， 预 先 
选择 了 4 个 行为 作为 测评 指标 ， 但 通过 小 样本 测验 得 到 这 4 个 指标 的 关系 不 稳 
定 上 且 效 度 较 低 ， 因 此 最 终 选取 了 人 花费 在 任务 事件 上 的 时 间 、 完 成 任务 事件 的 次 
数 两 个 数据 结果 作为 测评 指标 。 过 于 简单 地 使 用 两 个 指标 代表 个 体 坚持 性 的 方 
式 会 使 这 一 游戏 的 评估 效 度 令 人 怀疑 ， 因 此 在 设计 证 据 模型 时 ， 需 要 预先 设 定 
适当 数量 的 行为 纳入 评估 指标 ， 并 仔细 定义 行为 ， 证 据 和 结构 之 间 的 联系 。 有 
研究 者 指出 行为 的 指标 有 时 无 法 在 证 据 模 型 设计 初 就 确定 (DiCerbo, 2017)， 可 
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素 可 以 构成 证 据 的 假设 进行 发 展 和 证 实 。 也 有 研究 者 关注 先前 有 关 游 戏 测评 的 
默认 假设 ， 如 游戏 对 测评 动机 和 参与 度 的 促进 ， 对 考试 焦虑 和 学 业 成 绩 的 影响 
等 (Verma et al., 2019)。 

此 外 ， 因 受 测 者 个 体 差 异 带 来 的 测评 结果 误差 也 引起 了 研究 者 的 关注 。 与 
女性 相 比 ， 男 性 更 频繁 且 持 续 的 玩 各 种 类 型 的 游戏 ， 更 熟悉 常见 的 游戏 模式 、 
规则 等 ， 这 可 能 会 帮助 他 们 在 游戏 中 表现 更 好 。 研 究 者 曾 测量 不 同 的 个 体 差异 ， 
例如 性 别 、 愉 悦 感 、 游 戏 效 能 感 以 及 游戏 时 间 等 对 测评 得 分 的 影响 ， 但 未 得 出 
统一 结论 (Sanchez & Langer, 2020)。Kim 和 Shute 在 2015 年 的 研究 中 比较 了 男 
性 与 女性 、 经 验 丰富 和 经 验 较 少 或 无 的 游戏 玩家 之 间 的 结果 差异 ， 得 到 具有 游 
戏 经 验 的 玩家 在 部 分 指标 上 的 优势 更 大 ， 男 性 的 游戏 完成 率 更 高 且 男 性 与 女性 
在 两 个 重点 指标 的 结果 上 存在 明显 性 别 差异 。 这 些 优势 程度 可 能 表现 于 某 几 个 
游戏 指标 上 ， 可 以 通过 测试 进行 发 现 与 调整 优化 。 基 于 游戏 的 测评 工具 需 最 大 
程度 地 降低 玩家 个 体 差 异 的 影响 以 准确 衡量 受 测 者 的 能 力 ， 必 要 时 可 以 提供 充 
分 的 学 习 机 会 以 缩小 游戏 背景 带 来 的 差异 。Oranje 等 人 (2019) 则 提醒 在 基于 游戏 
的 测评 中 还 需要 关注 游戏 以 及 玩家 的 文化 环境 。 将 一 项 在 某 一 文化 中 设计 和 验 
证 的 游戏 应 用 于 另 一 文化 下 群体 时 ， 应 采取 跟 传 统 测评 类 似 的 评估 方式 ， 确 保 
其 具有 具有 跨 文化 的 测量 恒 等 性 。 


基于 游戏 的 心理 测评 虽然 还 处 于 起 步 阶段 ， 在 国内 的 相关 研究 也 非常 少 ， 
但 可 以 预见 的 是 ， 基 于 游戏 的 测评 在 心理 测量 领域 具有 巨大 的 潜力 。 以 证 据 中 


心 设计 为 核心 的 研究 范式 为 测评 工具 的 建立 提供 了 指导 ， 基 于 该 范式 在 认 知 能 


力 和 非 认 知 能 力 方面 的 研究 实践 也 验证 了 基于 游戏 的 测评 这 一 技术 的 有 效 性 。 
随 着 计算 机 技术 与 游戏 技术 的 不 断 进 步 ， 未 来 基于 游戏 的 测评 有 望 在 教育 评价 、 
心理 测量 和 人 力 资源 管理 等 多 个 领域 友 挥 重要 作用 。 
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Game-based psychological assessment: Conception, paradigm, and 


practices 


XU Junyi, LI Zhongquan 
(Department of Psychology, School of Social and Behavioral Sciences, Nanjing University, Nanjing 210023, China) 


Abstract: Game-based psychological assessment refers to the evaluation of a person's 
ability, personality and other psychological characteristics through games or gamified 
activities. It was primarily for the purpose of evaluating learning effects at early 
period and then developed into the evaluation of psychological characteristics. As a 
new technology, game-based asssessment has advantages in terms of form, process 
and outcome. Currently, a paradigm based on evidence-centered design has been 
developed to design assessment tools and conduct empirical studies. This kind of 
paradigm is applied to assess individual cognitive and non-cognitive abilities. Future 
research may focus on task design, data mining, and application. 

Key words: game-based assessment, evidence-centered design, cognitive ability, non- 
cognitive ability 


